iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
自我挑戰組

30天認識爬蟲系列 第 7

[Day7]爬蟲的常用工具與框架

  • 分享至 

  • xImage
  •  

今天是第七天,來介紹一下爬蟲的時候經常會使用到哪些工具吧!

我們在爬蟲的時候不外乎會常常用到Beautiful Soup、Scrapy及Selenium等工具,而Beautiful Soup是一個Python外部函式庫,他的功能主要包括解析HTML、XML文件,並將分析的結果轉換成網頁標籤樹的型態、並且可以修復含有未閉合標籤等錯誤的文件(此種文件常被稱為tag soup)。Beautiful Soup這個擴充包為待解析的頁面建立一棵樹,讓我們可以很方便的爬取其中的資料,通常用來收集網路資料,是網路爬蟲的好工具之一。

Scrapy是一個用Python編寫的自由且開源的網絡爬蟲框架。它設計的初衷是用於爬取網絡資料,但也可以作為使用API來獲取數據或作為生成目的的網絡爬蟲。Scrapy圍繞蜘蛛建構,蜘蛛是提供一套指令的自包含的爬網程序(crawlers)。遵循其他如Django框架的一次且僅一次精神,並且允許開發者重用代碼將便於構建和拓展大型的爬網項目。

最後是Selenium,Selenium是一個開源的自動化測試工具,主要用於web應用程式的自動化測試。可以模擬使用者在網頁上的操作,如點擊按鈕、輸入文字、選擇選項等等,並自動化這些任務。它支援多種瀏覽器和多種程式語言,如Java、Python、C#等,因此非常靈活且廣泛應用於測試環境。它為web瀏覽器的自動化提供了各種工具和依賴包。另外,Selenium也為W3C WebDriver specification(頁面存檔備份,存於網際網路檔案館)提供了基礎設施。


上一篇
[Day6]分布式爬蟲
下一篇
[Day8]爬蟲的應用場景
系列文
30天認識爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言